45 research outputs found

    Optimizing the weighted sequence alignment algorithm for large-scale text similarity computation

    Get PDF
    Peer reviewe

    Statistical and Computational Models for Whole Word Morphology

    Get PDF
    Das Ziel dieser Arbeit ist die Formulierung eines Ansatzes zum maschinellen Lernen von Sprachmorphologie, in dem letztere als Zeichenkettentransformationen auf ganzen Wörtern, und nicht als Zerlegung von Wörtern in kleinere stukturelle Einheiten, modelliert wird. Der Beitrag besteht aus zwei wesentlichen Teilen: zum einen wird ein Rechenmodell formuliert, in dem morphologische Regeln als Funktionen auf Zeichenketten definiert sind. Solche Funktionen lassen sich leicht zu endlichen Transduktoren übersetzen, was eine solide algorithmische Grundlage für den Ansatz liefert. Zum anderen wird ein statistisches Modell für Graphen von Wortab\-leitungen eingeführt. Die Inferenz in diesem Modell erfolgt mithilfe des Monte Carlo Expectation Maximization-Algorithmus und die Erwartungswerte über Graphen werden durch einen Metropolis-Hastings-Sampler approximiert. Das Modell wird auf einer Reihe von praktischen Aufgaben evaluiert: Clustering flektierter Formen, Lernen von Lemmatisierung, Vorhersage von Wortart für unbekannte Wörter, sowie Generierung neuer Wörter

    Historical Oral Poems and Digital Humanities : Starting with a Finnish Corpus

    Get PDF
    In this essay, we describe early experiments in a computational folkloristics project FILTER aimed at studying formulaic intertextuality, thematic networks and poetic variation across regional cultures of Finnic oral poetry. Due to the vast amount of linguistic and poetic variation and historical biases in the corpora, existing automated approaches are unusable. Instead, advances must be made through intelligently interleaving computational and manual analysis.Non peer reviewe

    Recognising Intertextuality in the Digital Corpus of Finnic Oral Poetry : Experiment with the Sampo Cycle

    Get PDF
    While digital corpora have enabled new perspectives into the variation and continuums of human communication, they often pose problems related to implicit biases of the data and the limited reach of current methods in recognising similarity in linguistically complex data, especially in small languages. The digital corpus of historical Finnic oral poetry in alliterative tetrametre is characterised by significant poetic, linguistic and orthographic variation. At the extreme, a word may be written in hundreds of different ways. The current corpus comprises 189,189 poetic texts in six Finnic languages (Karelian, Ingrian, Votic, Estonian, Seto and Finnish) recorded in 1564–1957 by 5,287 recorders. It has a long curation history and significant bias towards some genres, poetic forms and regions that collectors have preferred. In this poetic tradition, an idea is typically expressed with several parallel, partly alternative poetic lines or motifs, and similar verse types may be used in different contexts. A manual attempt to find all the occurrences of widely used expressions or motifs in the corpus is an unattainable task. While the digital tools—starting from simple queries to more advanced methods—make it possible to aim at wider intertextual analyses, some part of relevant material is typically not reached. Thus, it becomes central to estimate the amount and quality of the relevant data that is not recognised with different methods. Here, we discuss two strategies for mapping intertextuality in the corpus: 1) proceeding with text queries and 2) recognising similar poetic lines computationally, based on string similarity. We compare these approaches with one another, and then proceed to compare the results they yield with the existing type index and the results of manual early 20th-century research. While the methodological and theoretical foundations of this type of research no longer hold, and while our further interest lies in the intertextuality and variation rather than in the problematic concept of poem types, parts of earlier analyses may be used in evaluating the performance of digital approaches.Peer reviewe

    Metric Variation in the Finnic Runosong Tradition : A Rough Computational Analysis of the Multilingual Corpus

    Get PDF
    This article represents a first step in the corpus-based study of metric variation in Finnic runosong, a poetic tradition shared by several Finnic peoples and documented extensively in the 19th and 20th centuries. Runosong metre has generally been assumed to be a syllabic tetrametric trochee with specific rules about the placement of stressed syllables according to their quantity: long stressed syllables occupy the strong positions in the trochaic schema while short stressed syllables appear in the weak positions. Recent studies by Mari Sarv (2008, 2015, 2019) of Estonian runosong metre have shown, however, that due to linguistic changes, it has gradually lost its quantitative properties and acquired the features of accentual metre. Using computational methods, this study aims to give a preliminary overview of the extent of metric variation on the quantitative-accentual scale across the entire Finnic runosong area. After an approximate syllabification, we apply two separate indirect methods for estimating variation. These appear to generate coherent results: quantitative runosong metre dominates in the north-east and has gradually been replaced by accentual runosong metre towards the south-west. Subsequent studies should verify these results through more precise and detailed investigations.Peer reviewe

    The influence of varicocelectomy on semen parameters and fertility

    Get PDF
    Introduction. Varicocele is an abnormal dilation of the spermatic veins within the pampiniform plexus of the spermatic cord. This pathology is diagnosed in 25% of infertile men. There is some data that confirms varicocelectomy improves semen parameters and fertility potential in men with clinically diagnosed varicocele and impaired semen parameters. The aim of our study was to determine the influence of laparoscopic varicocelectomy on semen parameters and evaluation of spontaneous pregnancy rate. Material and methods. We retrospectively reviewed the data of 60 consecutive patients subjected to laparoscopic varicocelectomy between November 2010 and December 2016 due to clinical varicocele, impaired semen parameters and infertility. Results. The average age was 31 +/- 7. Compared with baseline semen parameters, sperm count, sperm concentration, morphology and progressive motility at 3 and 6 months. We did not observe changes in semen volume and semen pH during follow-up. A total improvement in semen parameters was observed in 64% and 70% of patients after 3 and 6 months after surgery. In 4 patients deterioration of semen parameters was noticed. Spontaneous pregnancy was achieved in 30% of couples. Two pregnancies were unsuccessful due to spontaneous abortion. A total of 16 children were born. The surgery- to- conception time was 7.7 +/- 7 months. Conclusions. Laparoscopic varicocelectomy in a patient who has suffered from infertility and confirmed semen parameters and fertility potential of men

    Lords of the news flow: the media and the Finnish competitiveness pact 2015-2016

    Get PDF
    Poliittisen viestinnän ja julkisuuden muutosta on kuvattu siirtymänä hybridiin mediajärjestelmään, jolle on ominaista erilaisten toimintalogiikoiden sekoittuminen ja toimijoiden välisten rajojen hämärtyminen sisältöjen loputtomassa virrassa. Tässä artikkelissa selvitetään, miten suomalainen media (STT, Helsingin Sanomat, Iltalehti ja Yle) liikutti vallan virtoja kilpailukykysopimusta koskevassa kamppailussa vuosina 2015–2016 antamalla äänen eri toimijoille. Tutkimus osoittaa, että työmarkkinakontekstissa uutisointi on mediajärjestelmän muutoksista huolimatta hyvin perinteistä. Empiria vahvistaa eliittilähteiden ylivallan ja institutionaalisten valtapositioiden merkityksen: hallitus ja ay-liike ovat kiky-uutisoinnissa selkeitä päätoimijoita, kun taas työnantajajärjestöt, oppositio ja ulkopuoliset asiantuntijat jäävät sivutoimijoiksi, eivätkä kansalaiset juuri pääse ääneen. Hybridin mediajärjestelmän vaikutuksesta voi kuitenkin nähdä viitteitä siinä, miten media antaa toimijoille äänen. Tutkimus osoittaa, että vain yhtä toimijaa lainaavat jutut (monologit) ovat paljon yleisempiä kuin kahta tai useampaa lähdettä siteeraavat jutut. Perinteisen median valta onkin uutisvuon hallinnan valtaa eli yksittäisten toimijoiden puhetekojen rytmittämistä ja kokoamista, joka ei välttämättä ole muodoltaan paljon sen dialogisempaa kuin sosiaalisen median uutisvirta. Se kuitenkin toistaiseksi kokoaa yhteen institutionaaliset valtapelurit, mikä legitimoi sen aseman keskeisenä politiikan näyttämönä.Peer reviewe

    Uutisvuon hallitsija: Uutismedia kiky-kamppailussa 2015–2016

    Get PDF
    Poliittisen viestinnän ja julkisuuden muutosta on kuvattu siirtymänä hybridiin mediajärjestelmään, jolle on ominaista erilaisten toimintalogiikoiden sekoittuminen ja toimijoiden välisten rajojen hämärtyminen sisältöjen loputtomassa virrassa. Tässä artikkelissa selvitetään, miten suomalainen media (STT, Helsingin Sanomat, Iltalehti ja Yle) liikutti vallan virtoja kilpailukykysopimusta koskevassa kamppailussa vuosina 2015–2016 antamalla äänen eri toimijoille. Tutkimus osoittaa, että työmarkkinakontekstissa uutisointi on mediajärjestelmän muutoksista huolimatta hyvin perinteistä. Empiria vahvistaa eliittilähteiden ylivallan ja institutionaalisten valtapositioiden merkityksen: hallitus ja ay-liike ovat kiky-uutisoinnissa selkeitä päätoimijoita, kun taas työnantajajärjestöt, oppositio ja ulkopuoliset asiantuntijat jäävät sivutoimijoiksi, eivätkä kansalaiset juuri pääse ääneen. Hybridin mediajärjestelmän vaikutuksesta voi kuitenkin nähdä viitteitä siinä, miten media antaa toimijoille äänen. Tutkimus osoittaa, että vain yhtä toimijaa lainaavat jutut (monologit) ovat paljon yleisempiä kuin kahta tai useampaa lähdettä siteeraavat jutut. Perinteisen median valta onkin uutisvuon hallinnan valtaa eli yksittäisten toimijoiden puhetekojen rytmittämistä ja kokoamista, joka ei välttämättä ole muodoltaan paljon sen dialogisempaa kuin sosiaalisen median uutisvirta. Se kuitenkin toistaiseksi kokoaa yhteen institutionaaliset valtapelurit, mikä legitimoi sen aseman keskeisenä politiikan näyttämönä.</p

    Statistical and Computational Models for Whole Word Morphology

    No full text
    Das Ziel dieser Arbeit ist die Formulierung eines Ansatzes zum maschinellen Lernen von Sprachmorphologie, in dem letztere als Zeichenkettentransformationen auf ganzen Wörtern, und nicht als Zerlegung von Wörtern in kleinere stukturelle Einheiten, modelliert wird. Der Beitrag besteht aus zwei wesentlichen Teilen: zum einen wird ein Rechenmodell formuliert, in dem morphologische Regeln als Funktionen auf Zeichenketten definiert sind. Solche Funktionen lassen sich leicht zu endlichen Transduktoren übersetzen, was eine solide algorithmische Grundlage für den Ansatz liefert. Zum anderen wird ein statistisches Modell für Graphen von Wortab\-leitungen eingeführt. Die Inferenz in diesem Modell erfolgt mithilfe des Monte Carlo Expectation Maximization-Algorithmus und die Erwartungswerte über Graphen werden durch einen Metropolis-Hastings-Sampler approximiert. Das Modell wird auf einer Reihe von praktischen Aufgaben evaluiert: Clustering flektierter Formen, Lernen von Lemmatisierung, Vorhersage von Wortart für unbekannte Wörter, sowie Generierung neuer Wörter